“No one cares about movies anymore. No one goes to cinema, no one really watches network TV. Everyone is watching Netflix.” Ricky Gervais
“Once Upon a Time in Hollywood, nearly three hours long. Leonardo DiCaprio attended the premiere, and by the end, his date was too old for him.” Ricky Gervais
Il dataset contiene parecchi dati descrittivi su ciascuno dei film:
Prima di addentrarci in aspetti più approfonditi dei dati, andiamo a caratterizzare il dataset a livello di distribuzione dei generi.
Incontriamo già una situazione interessante.
Andiamo ad esplorare l’andamento dei ricavi medi (dei film) all’anno, non prima di reperire i dati mancanti.
Sorprendentemente, ci troviamo di fronte ad un andamento strettamente crescente, con i minimi guadagni che si piazzano tra il 1920 e il 1950. Perchè?
Siamo a cavallo tra “Silent Years” e “Sound Era” (1920 - 1940) Ma…Sono anche gli anni in cui nascono quelli che diventeranno i grandi colossi cinematografici (Paramount, MGM, Fox)
il cinema americano ne ha beneficiato tantissimo, ed ha avuto un periodo di crescita, prosperità senza precedenti
Come è possibile che negli anni di Charlie Chaplin, di “Via Col Vento”, di “Quarto Potere” i guadagni non si avvicino neanche lontanamente alla media degli anni successivi?
Effettivamente, come possiamo notare, abbiamo molti più dati (logicamente) negli anni più recenti rispetto al periodo fino al 1960, bisogna quindi considerare che, utilizzando le medie, quelle calcolate su meno dati saranno molto più sensibili alle variazioni.
Controllando però di che dati fossimo forniti…
Gone with the Wind, 1939, 198676459 Toy Story, 1995, 191796233
Toy Story con praticamente gli stessi ricavi di Via col Vento?
L’andamento è ora drasticamente cambiato, e vediamo come ora ci siano delle spike in corrispondenza del 1933 (“The Invisible Man”), del 1939 (“Gone with the Wind”).
Possiamo inoltre notare come i film tra il 1960 e il 1980 abbiamo avuto, in generale, più successo.
Vediamo ora le valutazioni medie dei film negli anni.
Sorprendentemente, l’andamento delle valutazioni medie dei film per anno è caratterizzata da un trend descrescente. Inoltre:
A questo punto, con una punta di clichè, concludiamo che
Sì, i tempi sono cambiati
Il cinema sembra aver avuto il suo picco di popolarità tra gli anni ’60 e ’80, e non sembra aver vissuto da allora momenti altrettanto proficui. Inoltre, le persone giudicano i film più vecchi migliori di quelli recenti, che sembrano aver perso di qualità (in base alle votazioni ricevute)
Andiamo a scoprire come si comportano i ricavi in relazione con le votazioni ricevute dai film.
La distribuzione dei dati fa pensare ad una correlazione: semplifichiamo il grafico in modo da vederla meglio.
Ora lo vediamo molto meglio: visualizziamo sul grafico la correlazione.
Come possiamo vedere, la zona grigia che si riferisce al ‘confidence interval’ è abbastanza ampia: la correlazione non è fortissima. Perchè? Possiamo notare un ‘outlier’ che sta grandemente influenzando l’analisi.
Molto meglio: vediamo come l’influenza dell’outlier fosse considervole. Fino ad ora abbiamo testato solo una regressione esponenziale, e se riuscissimo ad ottenere un risultato ancora migliore?
Abbiamo la nostra correlazione: in genere, più alto è il voto ricevuto dal film, più esso andrà bene al box-office.
Inaspettato: di solito, quindi, la qualità di un film viene premiata a livello di guadagni.
Visualizziamo ora come si piazzano le votazioni quando comparati con la lunghezza del film.
Vediamo come la maggior parte dei film si aggiri sui 120 minuti, e le votazioni intorno all’8. Per come sono disposti i dati, non sembra esserci correlazione significativa: consideriamo le medie per ogni valore di runtime per confermarlo.
Il grafico conferma l’ipotesi: non si vede nessuna distribuzione particolare dei dati. Sorprendente.
Verifichiamo se il runtime influisce invece sui ricavi
Il grafico ci mostra dove troviamo la maggior parte di film: intorno ai 130 minuti e al miliardo di incassi. Ancora una volta l’analisi ci smentisce, evidentemente la lunghezza del film non è un fattore che influenza incasso o votazione.